Взламываем LLM | ChatGPT Jailbreak Prompts (CHECKED)

Описание к видео Взламываем LLM | ChatGPT Jailbreak Prompts (CHECKED)

Как обойти ограничение и цензуру в LLM моделях с помощью Adversarial Prompting.

В видео универсальный prompt для взлома ChatGPT, Bard, LLaMa, Claude, Cohere и друих языковых моделей.

Содержание
1:18 - список способов, как обойти Content Filter в LLM
5:01 - атака через suffix
9:18 - рабочий Prompt Injection Attacks (ready to use)
12:06 - безопасность ИИ и мои мысли по этому поводу


Презентация:
https://docs.google.com/presentation/...

Комментарии

Информация по комментариям в разработке